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摘 要 :行人 再 识别 主要 是 判断 不 同 摄像 机 捕捉 到 的 行人 图 像 是 否 属 于 同一 个 人 。 现 实生 活 中 , 由 于 人 的 姿势 变化 ， 
摄像 头 的 视角 变化 和 背景 干扰 等 因素 ， 导 致 相同 的 行人 在 不 同 的 摄像 头 产生 巨大 的 差别 ， 这 是 一 项 艰巨 的 任务 。 近 
几 年 ， 基 于 深度 学 习 的 方法 在 解决 行人 再 识别 问题 都 取得 了 显著 的 效果 。 然 而 目前 多 数 方法 仅 将 行人 的 局 部 或 全 局 
特征 分 开 考虑 ， 从 而 忽略 了 行人 整体 之 间 的 关系 ， 即 行人 全 局 特征 和 局 部 特征 之 间 的 联系 。 因 此 ， 该 算法 提出 了 一 
种 增强 特征 融合 网 络 (Enhanced Feature Convergent Network，EFCN)。 在 全 局 分 支 中 ， 提 出 适用 于 获取 全 局 特征 的 注 
意 力 网 络 作为 峙 入 特征 ， 上 欧 入 在 基础 网 络 模型 中 以 提取 行人 的 全 局 特征 ; 在 局 部 分 支 中 ， 提 出 循环 门 单元 变换 网 络 
(GatedRecurrent Unit Change Network，GRU-CN) 得 到 代表 性 的 局 部 特征 ， 再 使 用 特征 融合 方法 将 全 局 特征 和 局 部 特 
征 融 合成 最 终 的 行人 特征 ， 最 后 借助 损失 函数 训练 网 络 。 通 过 大 量 的 对 比 实验 ， 该 算法 网 络 模型 在 标准 的 Re-ID 数 
据 集 上 可 以 获得 较 好 的 实验 结果 。 提 出 的 增强 特征 融合 网 络 能 提取 辨别 性 较 强 的 行人 特征 ， 该 模型 能 够 应 用 于 大 场 
景 非 重 倒 多 摄像 机 下 的 行人 再 识别 问题 ， 具 有 较 高 的 识别 能 力 和 识别 精度 ， 且 对 背景 变化 的 行人 图 像 能 提取 有 具有 和 较 
强 的 鲁 棒 性 特征 。 
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Enhanced feature convergent network for person re-identification 


Deng Tao', Yang Juan, Wang Ronggui, Xue Lixia 
(Dept. of computer & information, Hefei University of Technology, Hefei 230601, China) 


Abstract: Person re-identification is to judge whether the pedestrian across different cameras belongs to the same person or 
not. While it is challenging task due to the large variations in person pose, occlusion, background clutter, etc. And several 
deep learning based person re-identification have been proposed and achieved remarkable performance. However, these 
methods are only considered separately from the local or global features of the pedestrian, ignoring the relationship between 
the features. So this paper proposed the enhanced feature convergent network (EFCN) . In the global branch, the paper used 
to employ the new attention to pay close attention to the global feature of pedestrians. In the local branch, it proposed the 
gated recurrent unit change network(GRU-CN) to obtain more robust local features, and then this paper used feature fusion 
to connect the extracted global and local features. Extensive comparative experiments show that EFCN can achieve better 
experimental results on three standard person Re-ID datasets. The proposed enhanced feature convergent network can extract 
highly discriminative pedestrian features. This model can be applied to the problem of Re-ID under non-overlapping multi- 
cameras in large scenes. It has high recognition ability and accuracy. The method can extract robust features for pedestrian 


images with changing background. 
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0 ”引言 图 1(a) 所 示 ， 对 于 同一 个 人 ， 在 不 同 图 像 的 相同 位 置 ， 左 侧 
号 的 红色 方 框 是 行人 的 头 部 ， 而 右 侧 的 蓝 色 方 框 是 图 像 背景 。 
行人 再 识别 (person Re-ID) 通 常 是 行人 检索 的 子 问题 ， 是 显然 ， 通 过 卷 积 神经 网 络 提取 的 两 个 区 域 的 特征 图 存在 巨大 
指 在 无 重 车 视 域 多 摄像 机 监控 系统 中 ， 辨 别 两 个 不 同 摄像 机 的 差距 ,无 法 直接 进行 比较 。 为 了 行人 图 像 解决 未 对 齐 问 题 ， 
捕 图 像 是 否 属于 同一 个 人 。person Re-ID 技术 可 文献 [2] 提 出 一 种 基于 多 特征 子 空间 与 核 学 习 的 方法 ,能 够 有 
以 运用 在 自动 跟踪 和 检索 视频 监视 网 络 中 的 犯罪 嫌疑 人 ， 能 效 的 识别 行人 身份 信息 ; 文献 [3] 将 关键 点 直接 用 于 生成 感 兴 
够 提高 视频 监视 系统 的 性 能 和 增加 案件 处 理 效率 。 考 虑 到 行 趣 区 域 ， 然 后 学 习 行 人 的 局 部 特征 来 实现 行人 的 对 齐 ， 而 这 
人 再 识别 在 视频 监控 和 公共 安全 中 的 重要 作用 ， 越 来 越 多 的 种 方法 需要 训练 一 个 可 以 达到 实际 水 平 的 模型 ， 其 代价 是 非 
研究 人 员 对 此 问题 展开 了 深入 研究 。 行 人 再 识别 主要 核心 是 常 昂 贵 的。 因此 本 文通 过 引入 注意 力 能 入 网 络 去 提取 行人 的 
行人 特征 表达 上 和 特征 距离 度量 。 由 于 监控 系统 中 行人 姿势 全 局 特征 ， 再 使 用 水 平 切片 方法 将 提取 的 全 局 特征 转换 为 三 
变化 ， 摄 像 机 角度 和 图 片 质量 问题 等 因素 变化 ， 同 一 行人 在 个 相同 的 局 部 特征 ， 使 得 行人 特征 可 以 间接 对 齐 ， 实 验 效 果 
不 同 的 监控 摄像 头 中 差异 很 大 ， 这 些 问 题 给 行人 再 识别 带 来 得 到 了 显著 的 改善 。 
了 巨大 挑战 。 有 具体 表现 主要 如 下 三 个 方面 : 其 次 ， 如 图 1(b) 所 示 ， 在 现实 生活 中 ， 许 多 相机 拍摄 到 
首先 ， 被 捕捉 的 行人 图 像 在 不 同 的 相机 中 不 能 对 齐 ， 如 的 行人 图 像 模糊 不 清 ， 导 致 图 片 质量 过 低 ， 增 加 了 Re-ID 的 
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难度 。 为 了 解决 该 问题 ， 文 献 [4] 使 用 注意 力 机 制 关 注 局 部 感 ” 1.1 全 局 分 支 网 络 
兴趣 区 域 ， 文 献 [5] 使 用 注意 力 机 制 从 上 到 下 关注 局 部 特征 ， 近年 来 ， 如 何 利 用 深度 学 习 来 提取 判别 特征 已 受到 研究 
使 用 局 部 特征 比较 相似 性 ， 但 是 却 忽略 了 全 局 特征 的 影响 。 人 员 越 来 越 多 的 关注 。 本 文 的 目的 是 通过 网 络 模型 学 习 行 人 
此 外 , 文献 [6] 提 出 了 一 种 多 方向 显著 性 学 习 权 值 的 行人 再 识 ”的 特征 图 ， 然 后 识别 行人 的 身份 信息 。 对 于 全 局 分 支 ， 利 用 
别 方法 ,学 习 到 的 特征 对 行人 图 像 具 有 更 好 的 表述 能 力 , 但 1 ResNet50 作为 基础 网 络 。 但 是 由 于 行人 再 识别 所 面临 的 挑战 ， 
于 必须 将 输入 图 片 配对 ， 导 致 计算 效率 较 低 。 针 对 此 问题 ， 如 果 仅 使 用 基本 的 ResNet50 网 络 来 学 习 全 局 特征 , 则 提取 的 
本 文 使 用 注意 力 机 制 提取 全 局 特征 ， 并 使 用 水 平 切片 获取 局 全 局 特征 不 够 代表 性 ， 同 时 引起 干扰 因素 。 因 此 ， 提 出 了 一 
部 特征 , 通过 提出 的 循环 门 单元 变换 网 络 (GRU-CN), 可 以 着 ”种 注意 力 典 入 网 络 ， 称 为 空间 和 通道 注意 力 嵌 入 网 络 (SC- 
重 提取 行人 的 局 部 重点 特征 ， 更 好 地 解决 图 像 模 糊 问题 ， 还 ”Neb。 既 是 将 SC-Net 与 ResNet50 模型 结合 起 来 ， 其 效果 能 
可 以 减少 背景 干扰 因素 。 提取 出 更 具 代 表 性 的 行人 全 局 特征 ， 并 稍微 修改 了 ResNet50 
此 外 ， 如 图 1(c) 所 示 ， 当 需要 区 分 非常 相似 的 行人 图 像 ” 网 络 ， 在 网 络 的 第 四 层 ， 删 除 下 采样 操作 ， 以 获得 更 大 的 特 
时 ， 行 人 细节 之 间 的 差异 尤为 重要 。 文 献 [7] 通 过 提取 行人 的 ” 征 图， 其 大 小 为 2048*24 * 8。 
全 局 和 局 部 特征 来 捕获 行人 的 细节 ， 但 却 忽略 全 局 特征 与 局 接 下 来 介绍 嵌入 注意 力 网 络 的 组 成 , SC-Net 目标 是 通过 
部 特征 之 间 的 相关 性 ;文献 [8] 提 出 了 一 种 多 级 相似 性 度量 ， 注意 力 机 制 来 增强 特征 表现 力 : 关注 重要 的 特征 ， 抑 制 不 必 
通过 计算 不 同 级 别 的 相似 性 得 分 来 识别 行人 身份 ， 相 似 性 得 ”要 的 特征 。 骨 入 注意 力 网 络 SC-Net 主要 是 由 空间 注意 机 制 
分 的 计算 量 很 大 。 因 此 ， 本 文 在 局 部 分 支 中 提出 了 循环 门 单 。 ”和 通道 注意 力 机 制 组 成 。 由 于 卷 积 运算 是 将 跨 信道 信息 和 空 
元 变换 网 络 (GRU-CN), 该 网 络 可 以 提取 更 辨别 性 的 局 部 特征 。 间 信 息 混 合 在 一 起 来 提取 特征 的 ， 因 此 采用 该 模块 来 强调 通 
同时 设计 了 一 种 特征 融合 的 方法 ， 将 全 局 特征 和 局 部 特征 更 。 道 和 空间 这 两 个 主要 维度 的 有 意义 特征 。 给 定 行人 图 像 大 小 
加 紧密 地 联系 在 一 起 ， 得 到 了 更 具 代 表 性 的 行人 特征 。 本 文 ” 为 3*384*128, 图像 通过 ResNet50 网 络 得 到 相应 的 特征 向 量 。 
方法 可 以 更 好 地 提取 行人 的 细节 信息 ， 因 此 对 细微 差别 行人 ”假定 特征 向 量 F eRe“*w ， 行 人 图 像 通 过 ResNet50 第 一 层 得 
图 像 的 识 另 ey 到 浅 层 特征 向 量 F ,其 中 CcC 是 通道 数 ，H*W 表示 特征 向 量 的 
长 和 宽 。 接 下 来 把 特征 向 量 F 输 到 SC-Net 注意 力 骨 入 网 络 
得 到 特征 向 量 feR*“™w 。 其 具体 结构 如 图 3 所 示 。 
(a) 行 人 图 片 不 对 齐 (b) 图 片 质量 问题 ”(c) 摄 像 头角 度 变化 及 
相似 行人 
图 1 行人 再 识别 的 挑战 
Fig. 1 Re-ID has some challenges 
根据 以 上 分 析 ， 在 特征 学 习 阶 段 ， 提 出 了 一 种 增强 特征 
融合 网 络 (EFCN)， 它 具有 三 个 分 支 : 学 习 全 局 特征 、 学 习 局 
部 特征 和 特征 融合 。 在 全 局 分 中 ， 本 文 把 空间 注意 力 和 通道 - 
注意 力 相 结合 作为 注意 力 嵌 入 式 网 络 SC-Net， 抽 入 到 rm 
ResNet50 四 网 络 中 ; 在 局 部 分 支 中 , 提出 了 循环 门 单元 变换 网 图 3 SC-Net 注意 力 柑 入 网 络 
络 (GRU-CN)， 并 使 用 GRU-CN 来 变换 行人 局 部 特征 ; 在 特 Fig. 3 Spatial and Channel attention network 
征 融合 中 ， 利 用 特征 融合 操作 将 全 局 特征 和 局 部 特征 融合 成 特征 向 量 Fe Rew 直接 地 计算 通道 特征 图 MesRcec ， 首 
新 的 特征 向 量 。 最 后 把 三 组 特征 向 量 送 入 损失 函数 去 训练 网 先 , 改变 特征 向 量 F 的 尺寸 大 小 为 feR ,其 中 N=H*W ,下 
络 参 数 。 的 转 置 定义 为 五 sR ,把 Ff 和 相 乘 , 最后, 利用 softmax 层 
1 ”模型 方法 提取 通道 注意 力 特 征 图 a 
对 于 一 个 给 定 的 查询 图 像 , ,行人 再 识别 的 目标 就 是 在 "Fee " 
候选 集 G 中 去 找 出 与 查询 图 像 1, 相同 身份 的 其 他 图 像 。 设 候 其 中 , Mj; 是 测量 第 i 个 通道 对 第 j 个 通道 的 影响 。 接 下 来 通 
选集 G={1},ie[l.…,cj, 其 中 < 为 行人 图 像 的 总 数量 。 让 训练 集 ” 道 注意 机 制作 用 后 的 特征 向 量 F' 为 
| 到 行人 失 识 ke 向 量 M 是 解决 行 -oO 有 O) 
人 再 识别 的 一 种 方法 。 在 本 节 中 ， 重 点 介绍 本 文 提出 的 增强 本 
特征 网 络 模型 ， 如 图 2 所 示 ， 模 型 主要 分 为 三 个 部 分 ， 第 一 其 中 2 为 权重 , 是 从 0 开始 学 习 的 , 对 M 和 的 转 置 进 行 矩 
部 分 是 全 局 特征 分 支 ， 第 二 部 分 是 局 部 特征 分 支 ， 第 三 部 分 。 阵 相 乘 。 其 中 Mj; eR ，Fe RW 。 二 者 矩阵 相 乘 得 到 单一 通 
是 特征 融合 。 接 下 来 章节 ， 详细 介绍 模型 的 各 个 部 分 。 道上 的 值 其 大 小 Rews ， 最 后 把 每 个 通道 值 芝 加 求 和 得 到 
> 二 F'eRc* ， 并 将 其 结果 重新 定义 为 Reww 。 它 有 助 于 提高 特征 
- 转 的 辨别 性 。 接 下 来 利用 通道 注意 力 提取 的 特征 向 量 ', 分 别 
采用 平均 池 化 和 最 大 池 化 两 种 操作 得 到 两 组 特征 向 量 ， 接 下 
,| 加 来 将 两 组 特征 整合 成 一 个 有 效 的 特征 描述 符 。 沿 着 通道 方向 
| 可 以 有 效 地 突出 重要 信息 区 域 。 然 后 ， 利 用 一 个 卷 积 层 作用 
图 LE 在 特征 描述 符 上 ， 从 而 得 到 一 个 空间 注意 特征 图 
ed M,(F')eR" ， 式 (3) 给 出 计算 过 程 : 
图 2 增强 特征 融合 网 络 模型 的 体系 结构 M,(F')=o(f ([Fis; Fa])) (G3) 
Fig.2 Architecture of the enhanced feature converged network 其 中 : ca 为 sigmoid 函数 , f 表示 为 卷 积 核 为 7*7 的 卷 积 操作 ， 
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习 在 ResNet50 网 络 的 
feRcaw 为 租 入 网 络 
过 ResNet50 的 得 


大 小 为 FE*W 的 特 生 
*W 的 特 和 
联 入 注意 力 网 络 SC-Net 是 
其 运算 过 程 如 下 所 示 。 
f=M,(F')®@rF 
其 中 : @ 表示 为 特征 向 量 的 乘积 运算 ; F' 为 通过 通道 注意 力 优 
， 由 于 由 入 注 
前 三 个 残 差 块 (residual block) 后 。 因 此 ， 
后 的 输出 特征 。 接 下 来 通 


民 SC-Net 优化 
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E 向 量 ， 
E 向 量 。 综 上 所 述 ， 对 于 特征 向 


Fa 是 最 大 


FE 意 力 网 络 SC 


利 


FE 


层 ， 批 归 一 化 和 ReLU 层 获 得 512 维 
重 损失 函数 和 softmax 损失 函数 训练 了 全 局 分 支 网 络 。 


匀 池 化 获取 一 个 2048 


四 层 后 ， 获 得 的 特 和 


E 图 为 2048 


特征 向 量 。 


个 通道 注意 力 和 


(4) 


-Net 是 人 车 入 学 


* 24* 8。 然 后 


佳 特 征 向 量 , 接 下 来 通过 1*1 卷 积 


最 后 ， 利 | 


1.2 局 部 分 支 网 络 

许多 方法 主要 研究 行人 的 全 局 特征 ， 会 忽略 一 些 行人 细 
节 信 息 ， 从 而 加 大 行人 再 识别 的 难度 ， 于 是 越 来 越 多 的 研究 
者 考虑 行人 的 局 部 特征 。 因 此 ， 本 文 另 一 个 分 支 是 局 部 分 支 
网 络 。 但 是 不 同 于 其 他 方法 ， 本 文 是 利用 全 局 分 支 提 取 到 的 


特征 向 量 作为 大和 
征 向 量 F; 然后 利用 
寸 为 2048*24*8; 然后 利 
大 小 为 2048*8*8 相同 的 特征 向 
门 单元 变换 网 络 (gated recurrent unit change network, GRU-CN) 


变换 得 到 三 块 


对 于 本 文 GRU-CN 网 络 , 划 
(STN)09 的 基础 上 作出 相关 


局 部 特征 。 


bottleneck 
信 


简单 


出 。 假 定 在 ResNet50 的 第 三 层 中 得 到 一 个 特 
9 把 特征 向 量 F 映 射 为 7T， 其 


的 分 块 操作 , 于 


三 


星 t 刀 ， t2， ts; 


™ 


RR 
巴 了 划分 成 三 块 
最 后 提出 的 循环 


主要 结构 是 在 空间 转换 网 络 


其 
接 层 。 通 过 以 上 的 研究 ， 利 用 6 旨 


A =FC(h, 
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) (6) 


变化 : 


标 。 


后 REHW 和 日 


尺寸 


比 吕 


. 


通过 (G6) 


P: forv () 为 循环 门 单元 , U 是 输入 特征 。FC(.) 为 两 个 全 连 


参数 h 来 计算 图 像 的 仿 射 


5 0 0, 0; 

小 zol 65 本 
Ph .2.0.4 是 尺寸 和 旋转 参数 ， 而 ,8 是 转变 参数 。 式 (7) 
中 (x,y") 为 输出 图 像 的 目标 坐标 ， 
的 计算 , 可 以 用 如 下 公式 得 到 变化 后 的 特征 攻 
[不 变 。 


(7) 


区 
y’ 
1 


(x,y") 为 输入 图 像 的 源 坐 


(8) 


导出 U,x,y*， 


沪 


息 特 得 


1 
技术 把 提取 到 的 
的 特征 表示 是 
征 简单 地 利 


其 中 有 表示 输出 特征 图 在 通道 < 位 置 上 的 (m,n) 上 的 像素 , U0。 


表示 输入 特征 图 在 通道 位置 上 的 (m,n) 上 的 像素 。 最 后 需要 


然后 利 ) 


E。 在 局 部 分 支 


损失 函数 进行 反 向 


专 播 。 综 上 所 述 ， 


通过 利用 GRU-CN 网 络 的 变换 , 得 到 更 鲁 棒 性 的 行人 
中 ， 同 样 的 通过 1*1 卷 积 层 ， 批 归 一 化 


为 了 更 加 


局 部 信 


1 Relu 层 得 到 512 维特 征 向 量 。 最 后 ,利用 三 重 损失 函数 和 
softmax 损失 函数 训练 
1.3 ”特征 融合 分 支 

侍 确 提高 行人 再 识别 的 识别 率 ， 利 用 特 行 


局 部 分 支 网 络 。 


融合 


部 特征 和 全 


局 


民 


个 前 景 


标的 情况 下 ， 可 


以 很 好 


的 改进 。STN 已 经 被 证 明 在 只 有 
也 关注 到 图 像 中 最 重要 的 


立 ， 还 可 


部 


以 自行 定位 到 若 


实验 发 现 STN 中 的 归 一 化 


的 卷 积 操作 ， 
的 局 部 特 4 


不 


Ey 


能 够 满足 分 块 后 的 局 部 特征 ， 


E 关 联 性 不 够 强 。 另 外 调 


(gated recurrent unit，GRUJ)L 


0 继承 了 


可 以 使 得 局 部 特征 之 间 更 
能 力 。 因 此 , 设计 将 GRU 
后 加 入 两 个 全 连 


部 特征 信息 ， 又 能 保持 各 个 
用 GRU-CN 可 以 在 


出 了 循环 门 单元 变换 网 络 GRU-CN, 日 


干 个 不 同 
网 


空间 依赖 怕 


的 重要 区 


域 。 但 是 通过 


络 Localization net 仅 采 上 


简单 


查 研究 发 


导致 不 同 小 块 


在 文献 [12] 中 进行 了 调查 研究 ， 使 用 
纲 力 。 因 
(feature descriptor fusion, FDF) 来 融合 全 
融合 操作 的 效果 ， 
的 实验 在 4.4 节 中 。 假 设 全 局 分 支 提取 到 的 


特征 


为 了 验证 特征 描 ; 
比较 实验 ， 详 细 


必要 的 。 而 
] concat 或 者 add 


局 特征 结合 起 来 以 生成 
究 发 现 ， 将 局 部 特 4 
操作 可 能 会 引入 特 和 


健壮 
局 特 


图 更 具 表 


向 量 的 外 积 将 取 的 


此 ， 本 文 


述 子 


现 循环 门 单元 


长 短 时 记忆 网 络 的 特点 ， 
E， 同 时 又 提高 了 计算 
网 络 放 入 归 一 化 网 络 中 , 并 且 在 其 
接 层 ， 形 成 全 新 的 Localization net。 本 文 提 


行人 特征 是 到， 其 


fi,b,ts , 则 将 三 个 


日 人 € ROCHW , 


后 


高 行人 再 识别 的 性 能 。GRU-CN 网 络 结构 具 


图 4 


Locdizaion net 


能 获得 更 为 重要 的 
局 部 特征 之 间 的 联系 性 。 因 
局 部 特征 上 可 以 得 到 行人 的 重要 的 区 
动 进行 特征 的 对 齐 ， 从 而 得 到 更 好 的 特征 


局 


此 ， 


图 来 提 


Gridgenemir 


体 见 图 4。 


循环 门 单元 变换 网 络 GRU-CN 结构 


Fig.4 Gated recurrent unit change network 


定位 网 络 


HH 和 WwW 分 别 表示 高 和 宽 , 输 出 是 


9 可 以 描述 为 


的 输入 是 


特征 


区 


LERcam ， 其 中 


个 6 维 的 仿 


0 0, 0, 
“| ee 

仿 射 变换 允许 输入 的 缩放 、 旋 转 和 倾斜 。 使 用 定位 网 络 
预测 转换 参数 。 在 网 络 中 ， 定 位 网 络 Localization net 是 循环 
门 单元 和 两 个 全 连接 层 的 组 合 ， 因 此 
(GC.,h) 训 farv (U,C, ,hi) 


hc 为 通道 数 ， 
射 变化 参数 9， 


(5) 


CN 


特征 向 量 M 。 特 
合 为 2048 维特 征 


~ 


I 


更 
全 
F 噪 声 干扰 。 
是 
es 


使 


特征 描述 符 融 合 操 作 
局 特征 和 局 部 特征 。 
史 用 了 几 组 数据 进行 


局 部 分 支 提取 的 特征 表示 为 
局 部 特征 利用 concat ] 
。 现 做 以 下 说 明 ，%, 表示 为 


得 到 


量 五 ， 


局 部 特征 后 


其 中 五 的 大 小 与 全 局 特征 相同 
全 局 特征 中 的 点 (x, y) 的 特征 描述 符 ， 而 Bs 被 表示 为 局 部 
特征 五 中 的 点 Co y) 的 特征 描述 符 。 特 征 描 述 符 融 合 操作 主要 
使 用 外 部 乘积 来 组 合 提取 的 全 局 特征 到 和 局 部 特征 五 。 因 
此 ， 在 下 和 五 上 融合 的 到 融合 特征 向 量 M。 具 体操 作 如 下 : 
Ms =T(os © po) GO) 
WM (10) 

M 
MS 4D) 
其 中 : © 表示 向 量 的 外 积 ，7() 是 把 矩阵 转换 成 向 量 ，S 是 空 


间 大 小 ， 其 大 小 即 8*w 。 最 终 ， 利 用 式 (11) 归 一 化 得 到 融合 


E 描 述 符 融 合 操 作 把 局 


网 络 使 用 


部 特征 和 全 


局 特征 融 


向 量 。 接 下 来 使 用 softmax 损失 函数 来 优化 
特征 融合 阶段 的 学 习 网 络 参数 。 在 本 文 网 络 中 ， 仅 在 GRU- 


了 dropout03 策 略 。 最 后 ， 将 从 三 个 分 支 提取 的 


特征 向 量 相 融合 


1.4 


成 行人 图 像 的 特征 向 量 。 


对 于 全 局 分 支 和 局 部 分 支 来 说 , 二 者 共 / 
总 损失 函数 是 改进 的 三 


对 于 工 是 分 类 损失 函数 ， 其 
L (4)= > -ynf (x) 


其 中 y 为 预测 标签 ， 


Loss = L. + loss 


个 损失 函数 。 


同 


损失 函数 和 分 类 损失 函数 之 和 。 即 


(12) 


体 表示 为 


(13) 


7 为 行人 的 类 别 ， 7(.) 为 分 类 函数 。 而 


lossww 是 改进 的 三 元 组 损失 函数 久 ， 
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Lossw (5X) = 99 In (Lr ee)) (14) a i 
和 1 al Tab. 1 Experimental results on the Market1501 dataset 
di = ma DR( Oo (1 ) = mi Dis(y, Cast) A 二 和 和 和 和 和 
ee (15) LOMO+XQDA 43.7 3 222 
人 BoW+KISSME 44.4 63.9 72.2 20.8 
其 中 : M 表示 行人 的 类 别 ，N 表示 为 每 个 行人 的 图 像 数 量 , 那 APR 87.04 95.10 96.42 66.89 
么 M*N 就 表示 在 一 个 批 次 中 有 Ms*N 个 三 元 组 。 对 于 必 人 2 表 GLOB-TO-LOCAL 89.9 > 2 73.9 
示 为 批 次 中 最 难 三 元 组 损失 函数 , 其 中 3?80 是 挑选 出 正 样 PCB 92.3 97.2 98.2 77.4 
本 中 最 难 的 样本 ; B32?50) 则 是 挑选 出 负 样 本 对 中 最 难 的 样本 ， PCB+RPP 93.3 97.4 98.2 80.9 
其 中 Dis(.) 是 欧式 距离 函数 ,也 就 是 说 , 对 于 每 个 样本 羽 ， 其 MSCAN 80.3 = - 57.5 
中 心 是 相同 行人 中 对 于 蕊 的 最 大 距离 的 图 像 ， 浆 是 不 同行 HA-CNN 91.2 = 75.7 
人 中 最 小 距离 的 图 像 。 因 此 ， 一 个 三 元 组 包括 总 , 闻 , 次 ， DMA-CN 88.93 = 70.48 
loss(4;X) 是 一 个 批 次 中 所 有 三 元 组 图 像 的 损失 函数 之 和 。 对 Pose 84.3 63.2 
于 特征 融合 分 支 ， 把 融合 后 的 特征 向 量 送 入 softmax 分 类 损 baseline(ResNet50) 。 88.84 71.59 
失 函 数 中 ， 该 损失 函数 就 是 式 (13) 所 示 。 本 文 94.4 98.0 98.6 83.1 
Sk 本 文 +RK 95.2 = 三 93.1 
2 ”实验 结果 表 2 在 CUHK03 数据 集 上 的 实验 结果 
在 本 文 实验 中 ， 验 证 模型 在 行人 再 识别 数据 集 : Tab. 2 Experimental results on the CUHK03 dataset 
Market1501、CUHK03 和 DukeMTMC-reID 上 测试 。 为 了 使 a CUHO3- ER 
实验 简单 快捷 ， 所 有 的 实验 都 是 在 单 查询 图 像 中 进行 的 。 本 label 
文 的 网 络 模型 利用 pytorch 深度 学 习 框 架 ， 用 NVIDIA LOMO+XQDA 11.5 12.8 13.6 14.8 
GeForce GTX 1080i GPU，Intel i7 CPU 和 内 存 32GB 训练 网 BoW+KISSME 11.7 14.4 12.3 14.2 
络 模型 。 本 文采 用 adam04 优 化 算法 来 优化 模型 ，adam 是 随 IDE 19.7 1 21.0 29:2 
机 梯度 下 降 算法 的 扩展 式 。 本 文 随机 地 把 样本 分 为 若干 个 批 PCB 54.2 61.3 
次 ， 每 批 的 训练 样本 的 数量 为 16 张 ， 每 批 的 测试 样本 为 16 PCB+RPP 56.7 62.8 - 
张 。 在 预 处 理 阶段 ， 对 图 像 进行 初始 化 处 理 ， 使 得 输入 图 像 HA-CNN 38.6 41.7- 41.0 44.4 
大 小 变 为 384*128， 然 后 利用 数据 增强 方法 。 本 文 利用 随机 
水 平 翻转 和 标准 化 对 样本 进行 增强 。 在 训练 阶段 ， 开 始 先 把 baseline(ResNet50) 593 62.1 62.3 64.8 
学 习 率 初始 化 为 le-3， 然 后 在 100 个 周期 后 衰减 到 le-4， 在 
300 个 周期 后 进一步 衰减 到 1e-5。 整 个 训练 过 程 共 达到 400 本 文 61.9 65.3 65.0 67.6 
个 周期 ， 共 消耗 了 8-10 小 时 使 得 模型 达到 拟 合 状态 。 本 文 +RK 72.6 733 75.4 76.7 
在 Market1501 数据 集 上 评估 : 在 表 1 中 展示 了 在 DukeMTMC-reID 数据 集 上 评估 : 将 本 文 方法 与 
Market1501 数据 集 的 实验 结果 。 将 其 与 近年 来 最 先进 的 方法 DukeMTMC-reID 数据 集 上 已 经 获得 的 一 些 成 果 的 方法 进行 
进行 比较 ， 例 如 度量 学 习 方法 ，LOMO + XQDA051，BoW + 比较 , 例如 : IDEI!, ARP, HA-CNN, PCB +RPP，DMA-CN， 
KISSME 04， 属 性 识别 学 习 方 法 APRI"1， 深 度 学 习 方 法 : Pose。 实 验 结果 列 于 表 3 .本 文 实验 效果 mAP 可 达到 72.9%， 
GLOB-TO-LOCALI，PCB08 和 PCB-RPP0D8;， 使 用 注意 力 机 ”Rank-1 为 86.8%, 与 更 好 的 GP-ReIDP3] 方 法 相 比 , 尽管 mAP 
制 的 学 习 方法 : MSCAN 09]，HA-CNN [20, 与 当前 最 新 的 主 并 没有 得 到 改善 ， 但 这 可 能 是 由 于 错误 造成 的 ， 但 是 本 文 的 


力 DMA-CNPU、PoseC22] 算 法 。 从 表 1 可 以 看 出 ， 本 文 方法 明 Rank-l 增加 了 1.6%。 在 此 数据 集中 ， 本 文 的 方法 超越 了 一 
显 优 于 度量 学 习 方 法 。 与 深度 学 习 方法 相 比 ， 不 需要 先 验 知 些 更 经 典 的 方法 。 采 用 RK 法 ,mAP 的 实验 效果 达到 86.8%， 


识 ，Rank-1 的 准确 率 可 以 达到 94.4%。 与 PCB-RPP 相 比 ， Rank-1 达到 89.7%。 

相同 的 使 用 注意 模型 用 于 辅助 学 习 功 能 ， 相 比 该 方法 本 文 的 表 3 在 DukeMTMC-reID 数据 集 上 的 实验 结果 

mAP 增加 了 2.2% 。 本 文 同样 设置 一 个 基本 网 络 模型 baseline， Tab. 3 Experimental results on the dukemtmc-reid dataset 

它 是 以 ResNest-50 网 络 模型 ， 其 mAP 和 rank-1 达到 分 别 达 网 络 模型 ” mAP rank-1 网 络 模型 mAP rank-l 

到 71.59% 和 88.84%。 从 表 中 可 以 明显 看 出 ， 本 文 方法 分 别 IDE 471 677 DMA-CN 61.73 78.57 

比 MSCAN 和 HA-CNN 的 rank-1 精度 高 14.1% 和 3.2% 。 同 ARP 55.56 73.92 Pose 60.5 78.4 

样 ， 将 重 排 序 方法 RK 与 本 文 方法 结合 使 用 ， 可 以 使 rank-1 PCB+RPP 69.2 83.3 lbaseline(ResNet50) 65.1 79.4 

达到 95.2%，mAP 达到 93.1%。 HA-CNN 63.8 80.5 本 文 72.8 86.8 
在 CUHK03 数据 集 上 评估 : CUHK03 数据 集 是 一 个 具有 GP-ReID 72.8 85.2 本 文 +RK 86.8 89.7 

挑战 性 的 数据 集 ， 因 为 其 数据 集中 存在 许多 障碍 ， 许 多 方 ; 


| 上 训 


均 未 达到 预期 的 结果 。 将 对 实验 的 结果 呈现 在 表 2 中 ， 3 ”实验 分 析 
两 组 方法 进行 比较 。 一 方面 是 低级 特征 提取 方法 ， 另 一 方 画 为 了 验证 本 文 提 出 来 的 各 种 方法 的 有 效 性 ， 接 下 来 在 
是 深度 学 习 方法 。 在 比较 方法 中 ， 可 以 清楚 地 发 现 ， 本 文 方 ” Market1501 数据 集 上 做 了 相关 的 消融 实验 ， 利 用 baseline 模 
法 比 低 级 特征 提取 方法 有 显 着 改进 。 本 文 方法 在 CUHK03- ”型 去 验证 各 个 网 络 部 分 的 正确 性 。 
detected 数据 集 上 的 两 个 评估 指标 分 别 为 61.9% 和 65.3%。 3.1 注意 力 机 制 网 络 对 实验 的 影响 

与 PCB +RPP 方法 相 比 ，Rank-l 增加 了 2.5%，mAP 增加 了 对 于 注意 力 网 络 , 本 文 利 用 四 组 实验 对 比 证 明 SC-Net 的 
5.2% 。 在 以 CUHK03-label 数据 集中 ， 实 验 准确 性 分 别 达 到 有 效 性 , 如 表 4 所 示 . 可 以 明显 的 发 现 单独 的 通道 注意 力 和 空 
65.0% 和 67.6%。 重 新 排序 也 与 本 文 方法 相 结合 ， 实 验 结果 ”” 间 注意 力 都 可 以 提高 实验 结果 。 因 为 注意 力 机 制 被 证 明 能 够 
见 表 2。 很 好 的 关注 行人 的 重要 信息 ， 减 少 背景 干扰 。 但 是 单独 的 使 


ll 


用 通道 注意 力 和 空间 注意 力 可 能 会 导致 部 分 行人 信息 的 丢失 ， 


邓 滔 ， 等 : 基于 增强 特征 融合 网 络 的 行人 再 识别 


从 而 降低 了 识别 率 。 而 本 文 提 
两 个 方面 入 手 


T 


3 而 且 也 不 全 


述 ， 合并 后 的 


的 全 局 特 行 


既 保 持 了 特征 尼 


出 的 SC-Net， 是 从 空间 和 通道 
空间 不 变性 又 重点 考虑 了 图 
此 ， 二 者 结合 的 注意 力 机 制 不 仅 可 以 关注 


过 多 的 丢失 行人 


图 像 的 信息 。 综 上 所 


典 入 注意 力 网 络 SC-Net 可 以 有 助 于 提取 行人 
E， 提 高 识别 准确 率 。 


表 4 注意 力 机 制 网 络 的 测试 结果 


Tab. 4 Experimental results of the attention mechanism network 


高 特征 融合 
行人 特征 向 量 。 


网 络 模型 ImAP rank-1 
baseline(ResNet50) 71.59 88.84 
baseline+spatial 74.61 89.31 
baseline+channel 73.85 89.10 
baseline+SC-Net 78.65 91.34 


操作 、fisher vector(FV) 中 1、bilineart”531。 相 比 人 简章 
作 ， 本 文 方法 FDF 的 mAP 和 Rank-1 
3.13%, eee 
bilinear, 本文 方法 FDF 的 实 
FDF 方法 是 从 图 


ee 其 融合 手段 保留 了 特征 向 

量 的 原始 信息 ， 不 会 像 其 他 融合 方法 降低 了 特征 的 信息 。 攻 
此 ,可 以 得 出 结论 : 使 用 特征 描述 符 融 合 方法 FDF 有 利于 提 
后 的 结果 , 并 且 FDF 方法 能 够 提取 更 有 区 分 度 的 
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和 的 concat 操 
分 别提 高 了 2.94% 和 
EF 方法 fisher vector(FV) 和 
有 轻微 的 提高 。 本 文 的 
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3.2 局 部 特征 变换 网 络 对 实验 的 影响 

通过 实验 数据 表 5 来 记 
的 优越 性 ， 通 过 三 组 对 
LSTM-STN 或 者 STN 网 络 作 用 


GRU-CN 


E 明 本 文 的 循环 门 单元 变换 网 络 


比 实验 ， 明显 地 得 出 结论 » 


局 部 分 文 上 ， 都 可 以 提高 


实验 的 效果 ; 但 是 本 文 提出 的 GRU-CN， 相 比较 STN 网 络 


mAP 提 


本 文 的 GRU-C 
本 文 的 GRU 
LSTM 来 说 的 话 , 一 方面 GRU 的 参数 
需要 更 少 的 数据 来 泛 化 。 
LSTM 的 强大 表达 能 力 可 能 会 产 和 9 
的 一 个 缺点 就 是 档 
LSTM-STN 有 轻微 的 提 


识别 的 数据 集 和 
GRU-CN 比 


高 了 2.12%, Rank-1 提高 
N 实验 结果 有 微弱 的 提高 。 


。 对 比 LSTM-STN， 


寻 为 相 比 LSTM， 


是 高 了 模型 的 计算 能 力 ,如 果 只 是 对 GRU 和 


男 一 方面 ， 


更 少 , 因而 训练 稍 快 或 
如 果 你 有 足够 的 数据 ， 
E 更 好 的 结果 。 但 是 行人 再 
fF 本 数据 的 缺少 ， 因 此 本 文 的 


高 。 通 过 实验 不 难 发 现 ， 


STN 网 络 可 以 不 需要 关键 点 的 标定 ， 能 够 根据 分 类 或 者 其 他 


间 差 异 较 大 的 情况 下 ,这 个 网 
提高 分 类 的 准确 性 。 


l 


用 于 


生 信息 。 
实验 的 效 


任务 自 适应 地 将 数据 进行 空间 变换 和 对 齐 ， 在 输入 数据 在 空 


络 可 以 加 在 现 有 的 卷 积 网 络 中 ， 
而 本 文 的 GRU-CN 网 络 一 方面 保持 了 
STN 网 络 的 特征 对 齐 性 ， 另 一 方面 使 得 分 块 的 局 部 特征 产生 
了 联系 ， 更 符合 行人 的 整体 1 
局 部 分 支 可 以 提高 


因此 ，GRU-CN 网 络 作 


表 5 不 同 变换 网 络 的 测试 结果 


Tab.5 ” Experimental results of different transformer network 


征 网 络 可 以 较 好 的 识 


网 络 模 型 mAP rank-1 
baseline(ResNet50) 71.59 88.84 
baseline+STN 73.14 89.66 
baseline+LSTM-STN 75.26 90.18 
baseline+GRU-CN 75.98 91.69 


3.3 ”分 块 对 实验 的 影响 
本 文 在 局 部 分 支 利用 水 平 切 分 的 方法 ， 把 提取 到 的 全 局 


特征 分 为 三 块 


的 影响 ， 


的 有 效 性 ， 


实验 
有 


结论 。 利 月 


局 部 特征 ， 为 了 简单 的 验证 本 文采 用 分 块 数量 
司 样 地 使 用 几 组 对 比 实验 来 验证 分 块 个 数 对 实验 


结果 见 表 6， 从 表格 中 可 以 明显 的 得 出 以 下 


可 以 提高 baseline 


的 识别 率 。 但 


是 不 同 分 块 数量 昼 


一 样 的 结果 ， 本 文采 用 


的 切 分 成 三 块 的 局 部 特征 效果 最 好 。 对 于 


特征 虽然 有 所 提高 ， 但 是 有 可 能 
而 采用 四 块 的 局 
景 干扰 天 


F 切 分 成 两 块 的 局 部 


提取 不 到 行人 的 细节 信息 ; 
部 特征 会 导致 行人 图 像 分 割 过 细 ， 引 入 了 背 


， 从 而 降低 了 实验 结果 。 因 此 ， 利 用 水 平 切 分 成 


三 块 的 局 


3.4 ”特征 融合 技术 对 实验 的 影响 
网络 Baseline, 使 用 全 


对 比 基 础 


i 特征 使 得 实验 能 呈 


现 较 好 的 结果 。 


会 使 得 实验 台 


疆 果 


百 林 人 明显 的 提高 ， 实验 


地 为 了 验 说 


F 特 征 描述 符 融 合 技术 的 准 


示 了 多 组 对 比 实验 。 


疆 晶 


I 7 所 示 。 同 样 


局 分 文 和 局 部 分 支 的 结合 ， 


， 本 文 在 表 7 中 展 


表 7 通 过 与 三 种 融合 方法 对 比 : 


concat 


在 Cuhk03 数据 集中 , 在 第 一 组 
此 第 六 个 图 像 不 匹配 。 


PhP, 查询 图 


排序 列表 的 图 像 是 通过 本 文 网 络 模型 获 
Market1501 和 DukeMTMC-reID 数据 集 上 的 识别 率 都 很 高 ; 


取 的 。 其 中 


表 6 分 块 数量 的 实验 结果 
Tab.6 Experimental results of number of patches 
网 络 模 型 mAP rank-1 
baseline(ResNet50) 71.59 88.84 
baseline+2 patches 76.37 89.55 
baseline+3 patches 78.34 92.41 
baseline+4 patches 78.21 91.07 
表 7 特征 融合 技术 的 实验 结果 
Tab.7 Experimental results of feature fusion 
网 络 模型 mAP rank-1 
baseline(ResNet50) 71.59 88.84 
global+local 78.1 90.4 
global+local+concat 80.06 90.87 
global+local+FV 80.98 91,5 
global+local+bilinear 81.46 92.43 
global+local+ 本 文 (EDP) 83.1 94.4 
最 后 ， 利 用 三 组 实验 图 片 ， 在 图 5 中 ， 展 示 了 本 文 在 三 
个 Re-ID 数据 集 上 的 可 视 化 第 一 列 中 是 待 查询 图 像 。 
根据 相似 度 分 数 从 左 到 右 依 次 对 检索 到 的 图 像 进行 排序 。 蓝 
.矩形 表示 正确 匹配 的 行人 ,红色 和 矩形 表示 错误 匹配 的 行人 。 


只 有 五 个 图 像 ， 


第 二 组 与 行人 图 


生 错 误 识 别 ， 但 是 在 误差 


别 出 行 人 身份 信 


总 体 网 络 模型 


以 。 本 文 方 
此 ， 本 文 增强 特 


图 5 在 三 个 数据 集 上 的 检索 样 
Fig.5 Sample retrieval results on the three datasets 
结束 语 
在 本 文中 , 提 


出 了 一 种 增强 特征 融合 网 络 (EFCN) 实 现行 


再 识别 。 Ol edad 
变化 , 模糊 图 像 和 相 似 图 
为 基本 模型 ，， 


识别 行人 姿态 
等 问 有 题 。 本 文 将 ResNet50 网 络 作 


分 成 三 个 分 支 : 全 局 分 支 ， 


录用 定稿 邓 


局 部 分 支 和 特征 融合 分 支 。 在 全 局 分 支 中 利用 注意 力 网 络 
SC-Net 作为 嵌入 网 络 ， 作 用 在 ResNet50 网 络 的 前 三 层 后 ， 

该 府 入 网 络 SC-Net 与 基础 网 络 结合 起 来 能 提取 到 更 具 表 示 
性 的 行人 全 局 特征 ; 在 局 部 分 支 中 ， 主 要 利用 循环 门 单元 变 
换 网 络 GRU-CN(gated recurrent unit change network) 提 取 行 人 
重要 的 局 部 信息 ; 在 特征 融合 分 支 ， 把 提取 到 的 全 局 特征 和 
局 部 特征 利用 特征 融合 方法 融合 得 到 和 鲁 棒 性 和 代表 性 的 行人 
特征 ,最 后 利用 损失 函数 训练 网 络 模型 ,为 了 验证 实验 效果 ， 
网 络 模型 在 三 个 行人 再 识别 数据 集 上 进行 结果 评估 。 通 过 和 
不 同 主流 方法 相 比 ， 其 实验 效果 在 三 个 数据 集 上 都 有 明显 的 


提高 。 
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